Klear团队:梯度保留协调熵,解决强化学习中的熵不稳定问题 本研究由快手科技 Klear 语言大模型团队完成,核心作者苏振鹏,潘雷宇,吕民轩,胡文凭,张富峥,周国睿等。快手 Klear 语言大模型团队聚焦在基础语言大模型研发、Agent RL 等前沿技术创新等方向,积累务实的探索 AGI 的能力边界,并不断推进 AI pa token ppo klear klear团队 2025-10-27 17:09 2